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摘要 :【 目 的】 建立 扶桑 绵 粉 内 Phenacoccus solenopsis Tinsley 4 $t 3& 28 4 J& Pe , 35 v A A PUE I Rk 
组 的 整体 表达 特征 。【 方 法 】 采 用 Humina HiSeq” 4000 in| P & FAITA HUE THE UA 3 kA 
测定 ,对 原始 数据 进行 过 滤 和 组 装 。【 结 果 】 共 获得 58 322258 条 序列 读 取 片段 (reads), 共 9.48 Gb 
(GenBank 登录 号 : SAMN06130426 ) 57 422 032 条 有 效 转录 组 数据 。 进 一 步 组 装 拼接 后 , 共 获 得 
94 475 ^- 3€- X. E] & ( unigene ) ,平均 长 度 为 700 bp。 将 unigene 与 数据 库 中 的 序列 进行 BLASTX 比 
对 ,成 功 注 释 20 949 个 unigenes , J- "P , Nr 注释 的 unigenes 5 34 € $f Acyrthosiphon pisum unigenes 同 
" pL ik 18. 6996 ~ IK SE PUE IE PEZ. unigenes 根据 GO 功能 注释 大 致 可 分 为 细胞 组 分 、 分 子 
能 和 生物 过 程 三 大 类 55 个 分 支 , 与 结合 活性 、 众 化 活 ， Pasce M ede unigenes 较 
多 。 此 外 ,本 研究 还 筛选 到 20 条 与 脂 类 代谢 相关 的 途径 和 与 性 信息 素 代谢 相关 的 序列 。 并 通过 与 
Nr 和 Swiss-prot 蛋白 质数 据 库 比 对 ,获得 了 15 037 ， n 片段 。 【结论 ] 本 研究 初步 并 
明 扶 桑 绵 粉 姑 雌 成 虫 转 录 组 的 整体 表达 模式 ,为 进一步 研究 扶桑 绵 粉 曙 的 基因 功能 及 性 信息 素 的 
代谢 途径 黄 定 了 基础 。 
关键 词 : KAADS; 转录 组 ; 基因 注释 ; GO 数据 库 ; 编码 序列 ; 性 信息 素 
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Transcriptome analysis of the cotton mealybug, Phenacoccus solenopsis 


( Hemiptera: Pseudococcidae ) 

HU Jun-Jie^* , MENG Xiang’, ZHOU Jia-Bin', YANG Lu-Xing', LIU Shan-Hai', LI Run-Zhao' 
(1. School of Life Sciences, Guangzhou University, Guangzhou 510006, China; 2. Guangdong Institute 
of Applied Biological Resources, Guangzhou 510260, China) 

Abstract: [ Aim] The objective of this study is to establish the transcriptome database of the cotton 
mealybug, Phenacoccus solenopsis Tinsley, and to reveal the whole expression characteristics of the data. 
[ Methods] The transcriptome of female adults of P. solenopsis was sequenced using an Illumina HiSeq™ 
4000 platform, and the raw data were filtered and assembled. [Results] A total of 58 322 258 reads 
containing 9. 48 Gb ( GenBank accession no.: SAMN06130426) valid data (57 422 032 clean reads) 
were obtained. A total of 94 475 unigenes with a mean length of 700 bp was obtained by further sequence 
splicing, and 20 949 unigenes were annotated using BLASTX searches against the databases. All 
unigenes against the Nr database had the highest similarity (18. 6996 ) with those of Acyrthosiphon pisum. 
Moreover, all unigenes were broadly divided into 55 branches of 3 categories ( biological processes, 
cellular components and molecular function categories) using Gene Ontology ( GO) , and more unigenes 
were annotated to be related to metabolic process, binding activity, catalytic activity and cellular process. 
In addition, 20 pathways associated with lipid metabolism pathway and the sequences related to the 
metabolism of sex pheromone were found. Totally 15 037 coding squences ( CDSs) were obtained using 


blast in Nr and Swiss-prot protein databases. [ Conclusion] This study preliminarily clarified the whole 
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expression pattern of the transcriptome of female adults of P. solenopsis, which will provide a foundation 


for further studying gene functions and the metabolism of sex pheromones in P. solenopsis. 


Key words: Phenacoccus solenopsis; transcriptome; gene annotation; Gene Ontology ( GO) database; 


coding sequence ( CDS) ; sex pheromone 











高 通 量 测序 技术 自 2005 年 问世 以 来 ( Margulies 
et al., 2005) ,广泛 应 用 于 动 植物 的 基因 挖掘、 功能 
鉴定 和 遗传 进化 等 各 个 尺度 ,已 经 成 为 当前 生物 学 
的 热点 研究 模式 之 一 ( 张 棋 记 和 吉明 龙 , 2013) 。 转 
录 组 测序 (RNA sequencing) 指 利用 第 二 代 高 通 量 测 
序 技术 进行 cDNA 测序 ,是 一 类 专注 于 功能 位 点 的 
测序 策略 ,能 全 面 快速 地 获取 研究 材料 特定 组 织 在 
某 一 状态 下 的 全 部 转录 本 信息 (机 新 平等 , 2014a) 。 
与 昆虫 全 基因 组 测序 相 比 ,转录 组 测序 具有 极 高 的 
性 价 比 优势 ,而 且 对 目前 还 没有 测定 全 基因 组 的 昆 
虫 来 说 , 先 测 转录 组 是 深入 研究 昆虫 生物 学 特性 分 
子 机 理 的 最 佳 选择 ( 张 传 溪 , 2015) 。 

Tk3& hM) p Phenacoccus solenopsis Tinsley 又 称 
Tis LEE T ,是 一 种 多 食性 的 外 来 和 人 侵害 虫 ,目前 已 经 
对 很 多 国家 的 作物 和 蔬 荣 等 农业 生产 造成 了 巨大 的 
破坏 ( 武 三 安 和 张 润 志 , 2009) 。 自 从 在 美国 新 墨 西 
哥 州 第 一 次 发 现 扶桑 绢 粉 内 以 来 (Tinsley，1898 ) ， 
相继 在 北美 洲 、 南 美洲 、 亚 洲 以 及 非洲 都 有 关于 该 虫 
发 生 的 报道 (Fuchs et al., 1991; Granara de Willink , 
2003; Abbas et al., 2005; Akintola and Ande, 
2008), ARAR N A dE AGER, E EO E Eo di f 
花 在 内 的 150 余 种 经 济 作物 和 园艺 植物 (Arif et al., 
2009) ,2005 年 传人 巴基斯坦 和 印度 后 对 当地 的 棉 
花生 产 造 成 了 极 大 的 损失 (Hodgson et al., 2008; 
Nagrare et al., 2009), CLIMEX 模型 预测 的 结果 显 
示 该 虫 是 亚洲 乃至 世界 其 他 棉花 产 区 的 重大 威胁 
( Wang et al., 2010) 。 

生殖 方式 是 影响 外 来 物种 成 功 和 人 侵 的 重要 因素 
(万 方 浩 等 , 2011 ) , MX FERR N EE RE 
争议 依旧 存在 。 有 些 学 者 认为 抓 雌 生殖 是 该 虫 的 主 
要 生殖 方式 ,在 野外 条 件 下 也 可 能 营 两 性 生殖 
(Vennila et al., 2010) ; 而 卵泡 细胞 的 调 亡 和 卯 吸 收 
的 发 生 等 证 据 表 明 扶 桑 绵 粉 内 只 能 进行 两 性 生殖 
( Huang et al., 2013) 。 该 虫 究竟 以 何 种 生殖 方式 进 
行人 侵 和 定 殖 尚 存在 和 争议。 昆虫 体内 的 脂 类 具有 储 
存 能 量 等 多 种 功能 , 作为 昆虫 传递 信息 的 重要 物 
质 一 一 信息 素 的 主要 成 分 也 是 脂 类 的 衍生 物 ,而 且 
昆虫 性 信息 素 的 前 体 主要 是 类 脂 体 ( 王 荫 长 ， 
2001 ) 。 能 和 否 通过 分 析 脂 类 代谢 过 程 发现 性 信息 素 
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分 泌 肉 性 信息 素 吸 引 雄 虫 完成 交配 进行 两 性 生 
殖 呢 ? 

本 研究 采用 Illumina HiSeq™ 4000 测序 平台 开 
展 转录 组 测序 工作 ,将 获得 的 序列 信息 进行 拼接 
和 组 装 , 并 进行 基因 功能 注释 和 功能 分 类 ,从 而 全 
面 探讨 扶桑 绵 粉 内 的 转录 组 信息 ,在 基因 组 水 平 
上 挖掘 扶桑 绵 粉 内 脂 类 代谢 和 性 信息 素 代谢 相关 
的 重要 功能 基因 ,为 证 明 扶 桑 绵 粉 晶 的 生殖 方式 
提供 证 据 , 也 为 进一步 相关 基因 的 克隆 与 表达 黄 
定 基础 。 
































1 材料 与 方法 


1.1 供 试 昆虫 

供 试 扶桑 绵 粉 内 P. solenopsis F 2014 年 5 月 采 
自 广州 市 越秀 区 扶桑 Hibiscus rosa-sinensis 绿化 带 ， 
带 回 实验 室 转移 到 棉花 植株 上 , 置 于 人 工 气 候 箱 
(上 海 一 恒 MGCC-250P) 内 饲养 。 在 28 € V'C 、 相 对 湿 
度 RH 6096 +5% 、 光 周期 14L: 10D 条 件 下 取 连 续 培 
养 10 代 以 上 ,收集 雌 成 虫 虫 体 用 液 氮 冷冻 , 存 于 
-80'C 备用 。 
1.2 总 RNA 的 提取 与 检验 

按照 Trizol Reagent 方法 提取 上 述 样品 总 RNA, 
采用 1% 琢 脂 糖 凝 胶 电泳 检测 总 RNA 的 完整 性 ,经 
Nanodrop2000 分 光 光 度 计 (IMPLEN, CA, USA) 测 
定 RNA fS 2 EE ( OD4/0Ds, fH.) ,依据 Qubit RNA 
Assay Kit 使 用 说 明定 量 测定 RNA 浓度 ,并 用 Agilent 
2100 ( Agilent Technologies, CA, USA ) 精确 检测 
RNA 的 完整 性 。 
1.3 cDNA 文库 构建 和 测序 

取 1.5 pg 检测 合格 的 RNA 样品 进行 文库 构 
建 :使 用 带 有 Oligo ( dT) 的 磁 珠 富 集 mRNA ; 加 入 
fragmentation buffer 将 mRNA 打 断 成 短片 段 , 以 
mRNA 目的 片段 为 模板 ,用 六 碱 基 随机 引物 合成 
cDNA 第 1 链 , 然后 加 入 缓冲 液 、dNTPs、DNA 
polymerase I 和 RNase H 合成 cDNA 第 2 链 , 再 用 
AMPure XP beads 纯化 双 链 cDNA。 纯 化 的 双 链 
cDNA 先进 行 末端 修复 .加 A 尾 并 连接 测序 接头 ,再 
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FH AMPure XP beads 进行 片段 大 小 选择 。 通 过 PCR 
扩 增 和 AMPure XP beads 纯化 PCR 产物 得 到 cDNA 
文库 。 文库 构建 完成 后 , 先 使 用 Qubit2. 0, Agilent 
2100 和 Q-PCR 方法 对 文库 进行 检测 。 最 后 将 检验 
合格 的 cDNA 文库 在 Ilumina HiSeq™ 4000 测序 平 
人 台 上 进行 测序 。cDNA 文库 构建 与 测序 由 北京 诺 禾 
致 源 生 物 信息 科技 有 限 公司 协助 完成 。 
1.4 转录 组 组 装 

测序 获得 的 原始 测序 序列 (raw reads) 经 过 处 理 
去 除 序列 接头 .poly-N 和 低 质 量 测序 序列 ,获得 过 滤 
后 的 测序 数据 (clean data) 。 同 时 ,在 高 质量 的 clean 
































ik 3& 2i y dép ME x, h Pe sie H ut fp M Fe. 共 获 得 
58 322 2582 WI Jl (reads) ,通过 过 滤 去 条 ( 去 除 
接头 序列 、 质 量 差 的 序列 等 ) 后 ,获得 37 422 032 条 
clean reads， 共 9.48 Gb ( GenBank 登录 号: 
SAMN06130426 ) 有效 转录 组 数据 。 其 中 ,GC% 含量 
为 38. 62% ,Q20 为 96. 8396 , 碱 基 Q30 为 92. 03% 。 

通过 Trinity 软件 对 所 获得 的 reads 进行 组 装 
(图 1) , 共 得 到 114 648 个 转录 本 (transcript) ,序列 
言 息 达 到 101 369 057 bp ,平均 长 度 为 884 bp, N50 
(覆盖 5096 所 有 核 昔 酸 的 最 大 序列 重 倒 群 长 度 ) 长 
度 为 1 920 bp, 长 度 为 200 ~300 bp 的 transcript 数 






































data 基础 上 计算 Q20( Phred 数值 大 于 20 碱 基 占 总 
体 碱 基 的 百分比 ) 、Q30(Phred 数值 大 于 30 碱 基 占 
总 体 碱 基 的 百分比 )、GC 含量 ( 碱 基 G 和 C 的 数量 
总 和 占 总 的 碱 基数 量 的 百分比 ) 和 重复 序列 水 平 。 
获得 高 质量 的 测序 数据 后 ,采用 Trinity 软件 对 clean 
reads 进行 拼接 ,过滤 和 组 装 。 
1.5 基因 功能 注释 和 分 类 

使 用 BLAST 程序 将 拼接 得 到 的 unigene 与 下 列 
数据 库 进 行 比 对 ,获得 基因 的 功能 注释 信息 。 数 据 
库 分 别 为 :NCBI (https://www. ncbi. nlm. nih. gov/) 
蛋白 数据 库 (NCBI non-redundant protein sequences, 
Nr) ; NCBI 核酸 序列 数据 库 (NCBI non-redundant 
nucleotide sequences, Nt) ; 蛋白 家 族 ( protein family, 
Pfam) ; 基因 本 体 论 (gene ontology，GO)。 根 据 
NCBI 数据 库 的 功能 注释 信息 ,使 用 Blast2 GO 软件 
得 到 unigene 的 GO 条 目 ,然后 用 WEGO 软件 对 所 
有 的 unigene 进行 GO 功能 分 类 统计 ( Conesa et al., 
2005; Ye et al., 2006) , 
1.6 编码 序列 (coding sequence, CDS ) 预测 与 分 析 











量 最 大 , 占 总 体 的 36. 41% 。 在 transcript 基础 上 进 
一 步 组 装 获得 94 475 条 unigenes ,平均 长 度 为 700 
bp, N50 长 度 为 1 297 bp。 转 录 组 的 长 度 分 布 特征 
分 析 见 图 1, 长度 为 200 ~ 300 bp 的 unigene 所 占 比 
例 最 大 , 占 总 体 的 41.54% 。 
2.2 Unigene 的 序列 注释 与 相似 性 分 析 

利用 BLASTX 程序 将 获得 的 unigenes 序列 与 
Nr, Nt, Pfam, Swiss-prot 和 GO 数据 库 进 行 对 比 , 得 
FIRRA NEE RH unigene 的 功能 信息 。 在 组 装 
获得 的 94 475 条 unigenes 中 成 功 注 释 20 949 条 ,所 
占 比 例 为 22.17%; GO 数据库 注释 15 994 条 
unigenes, 占 总 体 的 16. 9396 ,比例 最 高 ;Pfam 数据 库 
注释 15 877 条 unigenes, 占 总 体 的 16. 81% ; Nr 数据 
库 注释 15 015 条 unigenes, i5 15. 89% ; Swiss-prot 数 
据 库 注释 11 250 条 unigenes, 占 总 体 的 11. 90% ;Nt 
数据 库 成 功 注释 的 unigenes 不 到 10% (3. 59% ) 。 

通过 与 Nr 库 进 行 比 对 注释 ,扶桑 绵 粉 内 转 录 组 
注释 到 其 他 物种 的 基因 序列 共 15 015 条 。 其 中 与 
Wü xi" Acyrthosiphon pisum 的 相似 基因 序列 最 多 ,所 




















TERR ZIEL ELEGIR IP unigenes 5j Nr 蛋白 
数据 库 和 Swiss-prot 蛋白 数据 库 (a manually 
annotated and reviewed protein sequence database ) 进 
行 比 对 , 若 比 对 上 , 则 从 比 对 结果 中 提取 转录 本 的 开 
放 阅 读 框 (open reading frame, ORF) 信息, 并 按照 标 
准 密码 子 表 将 编码 区 序列 翻译 成 氨基 酸 序 列 (按照 
5' -3' 的 顺序 ) ; 知 未 比 对 上 , 则 采用 ESTscan 软件 
预测 该 unigene 的 ORF ,得 到 这 部 分 基因 编码 的 核 
酸 序列 和 氨基 酸 序列 。 






































2 结果 


2.1 “扶桑 绵 粉 蛤 肉 成 虫 转录 组 数据 的 组 装 
采用 lumina HiSeq"" 4000 高 通 量 测序 平台 对 




















占 比 例 为 18.6990; EK M A fe xd ES 
Zootermopsis nevadensis ,所 占 比 例 为 14. 8696 ;其 他 相 
似 性 序列 数量 大 于 2% 的 物种 有 赤 拟 谷 盗 Tribolium 
castaneum ( 8. 7496 ) ,柑橘 木 乔 Diaphorina citri 
(6.4496) , 丽 蝇 师 集 金 小 蜂 Nasonia vitripennis 
(3.77% ) RE Pediculus humanus (2. 7796 ), 家 看 
Bombyx mori ( 2. 2596) PI Sx Aj] 35) E E Microplitis 
demolitor (2. 0996 ) ,其 他 物种 占 40. 39% (图 2)。 
2.3 Unigene 的 功能 分 类 

GO 数据库 分 别 描述 基因 参与 的 生物 过 程 
(biological process )、 所 处 的 细胞 组 分 (cellular 
component) 及 具有 的 分 子 功能 (molecular function )3 
个 方面 。 本 研究 中 共有 15 994 条 unigenes 得 到 了 
89 768 个 功能 注释 ,平均 每 条 unigene 5.61 个 GO 
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Data assembly for transcript and unigenes in the transcriptome of female adults of Phenacoccus solenopsis 





^ 内 华 达 十 白蚁 Zootermopsis nevadensis m 赤 拟 谷 盗 Tribolium castaneum 
m MIARSA Nasonia vitripennis 
m SHAE Microplitis demolitor 
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= 其 他 Others 


图 2 WRA ESRA Nr 数据 库 转录 组 数据 比 对 相似 度 


Fig. 2 Similarity of transcriptome data of female adults of Phenacoccus solenopsis with those of other species in Nr database 


注释 。 其 中 ,19 291 条 注释 归属 于 分 子 功能 ;27 758 
条 注释 归属 于 细胞 组 分 ;42 719 条 注释 归属 于 生物 
过 程 。 上 述 3 大 功能 可 被 划分 为 更 为 详细 的 55 个 
第 2 层级 的 描述 ,分 别 包 含 了 14,18 和 23 个 第 3 层 
级 的 描述 (图 3)。 结 合 活性 (8 575 个 ) 催化 活性 
(6 647 个 ) 单 细胞 有 机 体 进 程 (6 895 个 ) 、 细 胞 进 
程 (9 418 个 ) 和 代谢 进程 (8 544 个 ) 相 关 的 unigenes 
较 多 ,金属 伴侣 蛋白 活性 (4 个 ) .调节 活 性 受 体 (7 
个 ) 、 核 状 小 体 (5 个 ) 生物 相 (2 个 ) 和 节律 进程 (9 
个 ) 相 关 的 unigenes 较 少 。 





2.4 脂 类 代谢 相关 基因 和 性 信息 素 相 关 基 因 的 
在 扶桑 绵 粉 内 雌 成 虫 转录 组 中 共 盘 选 到 20 条 
类 代谢 途径 (图 4)。 其 中 ,与 脂肪 酰基 还 原 酶 辅 
酶 A( 乙 醇 形 成 ) 活性 相关 的 基因 序列 最 多 , 共 21 
条 ;与 雌性 激素 代谢 过 程 、 雄 性 激素 代谢 过 程 和 和 洗 类 
激素 代谢 过 程 相关 的 序列 为 18 条 并 且 是 完全 相同 
的 基因 序列 ( 表 1) 。 
通过 对 18 条 基因 序列 进行 Blast 比 对 , 发 现 
这 些 序列 中 有 17 条 与 脂肪 酰基 辅酶 A 的 代谢 相关 ， 
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多 细胞 进程 Multicellular organismal process -— 428 
Æ ð Localization 





2726 


信号 转 导 Signaling transduction MEM 1 574 


节律 进程 Rhythmic process | 9 
免疫 系统 进程 Immune system process m 144 
生物 附着 Biological adhesion M 220 
代谢 进程 Metabolic process 1 
细胞 组 织 部 分 或 生物 合成 Cellular component organization or biogenesis RE 
A BERE Developmental process - 275 


多 细胞 有 机 体 进 程 Multi-organism process MENNNEEENN $90 
正 调控 的 生物 进程 P ositive regulation of biological process Wi 156 
负 调 控 的 生物 进程 Negative regulation of biological process WE 177 
生物 相 Biologicalphase | 2 

细胞 活动 Locomotion Wi 155 

细胞 杀伤 Cellkilling | 25 
繁殖 Reproduction W 143 

繁殖 进程 Reproductive process W 83 
应 激 响应 Response to stimulus 


生物 过 程 Biological process 





生长 Growth | 14 
单 细 胞 有 机 体 进 程 Single-organism process 
胞 外 基 Extracellular matrix B 117 








胞 外 区 部 分 Extracellular region part - 325 

胞 外 基部 分 Extracellular matrix part E 65 
胞 外 区 Extracellular region 
膜 结构 部 分 Membrane part 


mm 334 


病毒 体 部 分 Virion part ME 481 
复杂 大 分 子 Macromolecular complex 


膜 关 闭 内 腔 Membrane-enclosed lumen mm 529 


细胞 组 分 Cellular component 


病毒 体 Virion MEG 431 
核 状 小 体 Nucleoid | 5 
突 触 部 分 Synapse part | 16 
细胞 连接 Cell junction 4121 


突 触 Synapse | 16 
受 体 活性 Receptor activity | 399 


分 子 转 导 活性 Molecular transducer activity MIN 527 
酶 调节 活性 Enzyme regulator activity m 256 
结合 蛋白 转录 活性 Protein binding transcription factor activity Wii 187 
核 背 酸 结合 转录 因子 活性 Nucleic acid binding transcription factor activity -— 552 
抗 氧 化 活性 Antioxidant activity n 53 
通道 调节 活性 Channel regulator activity 152 

















分 子 功 能 Molecular function 
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生物 调控 进程 Regulation of biological process mm 3312 


细胞 进程 Cellular process 94 1 3 


生物 调节 Biological regulation 3511 


m——————— 2322 


n———————————————. G395 


细胞 器 部 分 Organelle part  — 1 7 72 
 ——uAÁAA 2865 
细胞 器 Organelle —-————N 35 6 2 
膜 结 构 Membrane m 3059 


E 3482 


细胞 Cell ER 5304 


细胞 部 分 Cell part  m———————————]Ó 5504 


催化 活性 Catalytic activity —————————————————————ÁmmmmÁÓÁÀJs 5647 




















调节 活性 受 体 Receptor regulator activity | 7 
金属 伴侣 蛋白 活性 Metallochaperone activity | 4 

结构 分 子 活性 Structural molecule activity mm 699 

EB ERES EAS TRIS T. Guanyl-nucleotide exchange factor activity 142 
结合 活性 Binding activity | 8575 
转运 活性 Transporter activity MENE 1291 
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 
GO 注释 数量 Number of GO annotations 
到 3 IRRA unigenes 的 GO 分 类 
Fig. 3 Gene Ontology categories of female adults of Phenacoccus solenopsis 
序列 c18425 gl, c33194 gl 和 c26635 gl 与 已 发 表 ”长度 在 0 -200 nt 的 最 多 ,有 5 675 条 ;其 次 是 200 ~ 


的 扶桑 绵 粉 量 基因 (Li et al., 2016) PsFAR I 
(GenBank ID; ANN23959. 1) 一 致 性 较 高 ,并 且 
c18425_gl 与 PsFAR TI 的 一 致 性 高 达 100% 。 
2.5 Unigene 的 CDS 预测 

按照 Nr 和 Swiss-prot 的 优先 级 顺序 ,将 扶桑 绵 
粉 内 上 肉 成 虫 转录 组 unigenes 与 上 述 蛋 白 数据 库 blast 
比 对 ,获得 15 037 条 CDS 序列 片段 ,进一步 将 比 对 
不 上 的 unigenes 利用 ESTscan 分 析 预 测 获 得 6 981 
条 CDS 序列 片段 。 在 所 有 22 018 条 CDS 片段 中 ， 





400 nt(5 099 条 ) 及 400 ~600 nt (2 039 条 ) ,其 余 长 
度 区 间 的 CDS 都 不 足 2 000 条 (图 5)。 


3 讨论 














新 一 代 高 通 量 测序 技术 具有 数据 量 大 ,速度 快 、 














成 本 低 和 效率 高 的 特点 , 目前 已 广泛 应 用 于 昆虫 分 
子 标记 (Schwarz et al., 2009) \ 抗 药性 相关 基因 的 挖 
HRI (Wang et al., 2011) 以 及 昆虫 与 其 他 生物 互 
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雄性 激素 代谢 过 程 Androgen metabolic process 

雌性 激素 代谢 过 程 Estrogen metabolic process 
省 类 激素 代谢 过 程 C21-steroid hormone. metabolic process 

ERA Sterol binding 

油脂 结合 Lipid binding 

油脂 运输 Lipid transport 

油脂 代谢 过 程 Lipid metabolic process 

脂 蛋白 代谢 过 程 Lipoprotein metabolic process 

脂 酰 载体 蛋白 质 生 物 合成 过 程 Acyl-carrier-protein biosynthetic process 
甘油 酯 代谢 过 程 Glycerolipid metabolic process 


鞘 糖 脂 代谢 过 程 Glycosphingolipid metabolic process 


GO 注释 GO annotation 


糖 基础 脂 酰 肌 醇 固定 代谢 过 程 GPI anchor metabolic process 





糖 脂 类 生物 合成 过 程 Glycolipid biosynthetic process 
脂肪 酰 辅酶 A 结合 Fatty-acyl-CoA binding 
长 链 脂 肪 酸 荧 光 素 构成 连接 酶 活性 Long-chain fatty acid luciferin component. activity | 
脂肪 酸 代 谢 调节 过 程 Regulation of fatty acid metabolic process 
脂肪 酸 合成 过 程 Fatty acid biosynthetic process 
脂肪 酸 代谢 过 程 Fatty acid metabolic process 


长 链 脂肪 酸 代谢 过 程 Long-chain fatty acid metabolic process 


脂肪 酰基 还 原 酶 辅酶 A 乙醇 形成 ) 活性 Fatty-acyl-CoA reductase (alcohol-forming) 
activity 





0 5 10 15 20 25 
基因 数量 Number of unigenes 


图 4 扶桑 绵 粉 蚊 肉 成 虫 脂 类 代谢 相关 unigene 的 GO 注释 


Fig. 4 Gene Ontology categories of unigenes related with fatty metabolic process in female adults of Phenacoccus solenopsis unigenes 











R1 扶桑 绵 粉 蚊 肉 成 虫 性 信息 素 代谢 过 程 相关 基因 


Table 1 Genes related to sex pheromone metabolic process in female adults of Phenacoccus solenopsis 














Unigene 编号 长 度 ( bp) 功能 推断 物种 NCBI 编号 分 数 EE 一 致 性 (% ) 
Unigene ID Length Putative function Species NCBI accession no. Score E-value Identity 
c225 gl 2100 Male sterility domain-containing protein Pediculus humanus corporis XP. 00242699]. 1 510 le-171 49 
c6645 gl 1 577 Fatty acyl-CoA reductase 10 Helicoverpa assulta AKD01788. 1 73.2 2e-12 55 
c18425 gl 2 565 Fatty acyl-CoA reductase 1 Phenacoccus solenopsis ANN23959. 1 1 083 0 100 
c35953 el 4 281 Fatty acyl-CoA reductase 5 Helicoverpa armigera AKDO01766. 1 405 1le-123 45 
c37348 gl 2 065 Fatty acyl-CoA reductase 13 Helicoverpa assulta. AKDO01791. 1 380 le-119 43 
c43895 el 1911 Fatty acyl-CoA reductase Ericerus pela AGK27745. 1 570 0 52 
c33194 el 2 068 Fatty acyl-CoA reductase 1 Phenacoccus solenopsis ANN23959. 1 522 2e-176 55 
c26635 gl 2 490 Fatty acyl-CoA reductase 1 Phenacoccus solenopsis ANN23959. 1 599 0 56 
c38235 el 2 936 Fatty acyl-CoA reductase Anopheles darlingi ETN62440. 1 468 6e-152 53 
c35267 gl 2 260 Fatty acyl-CoA reductase 1 Camponotus floridanus EFN66140. 1 632 0 62 
c29157 gl 2 388 Fatty-acyl CoA reductase 5 Danaus plexippus EHJ72233. 1 310 1e-92 35 
c16346 gl 2 509 Fatty acyl-CoA reductase Ericerus pela AGK27745. 1 528 6e-177 51 
c38946 93 3 858 Fatty acyl-CoA reductase Ericerus pela AGK27745. 1 467 2e-148 48 
c49387 el 2 182 Fatty acyl-CoA reductase 8 Helicoverpa assulta AKD01786. 1 512 4e -172 54 
c18290 gl 1 919 Fatty acyl-CoA reductase 1 Camponotus floridanus EFN66142. 1 443 3e-145 42 
c10213 gl 1178 Fatty acyl-reductase 1 Lasius niger KMQ98413. 1 132 1e-32 42 
c86525 gl 2 051 Fatty acyl-CoA reductase Ericerus pela AGK27745. 1 660 0 61 
c67509 el 2 247 Fatty acyl-CoA reductase Ericerus pela AGK27745. 1 535 0 50 
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图 5 编码 序列 (CDS) 长 度 分 布 图 





Fig. 5 Coding sequence ( CDS) length distribution 


作 研 究 等 方面 (Zhu et al., 2013) 。 本 研究 利用 
Ilumnia 测序 技术 对 扶桑 绵 粉 盼 雌 成 虫 的 转录 组 进 
行 测序 和 分 析 , 揭示 其 转录 组 的 整体 表达 模式 。 共 
获得 94 475 条 高 质量 unigenes ,平均 长 度 为 700 bp, 
N50 值 为 1 297 pp。 一 般 认 为 N50 值 越 大 就 表示 得 
到 的 长 片段 越 多 ( 贾 新 平等 , 2014b) , 且 不 小 于 800 
bp 就 说 明 组 装 得 到 序列 完整 性 较 好 ; 碱 基 Q30 值 为 
92. 03% ,Q30 在 8096 以 上 就 认为 测序 质量 可 靠 ( 王 
XET, 2015)。 上 述 结果 表明 本 研究 测序 数据 组 
装 的 质量 和 长 度 满足 转录 组 分 析 的 基本 要 求 ,为 进 
一 步 发 气 重 要 的 功能 基因 黄 定 了 基础 。 

本 研究 利用 Nr, Nt, Pfam, Swiss-prot 和 GO 数 
据 库 对 所 获得 的 unigene 进行 BLASTX 比 对 分 析 , 成 
功 注释 20 949 条 unigene, 仍 有 73 526 条 unigene 无 
匹配 结果 ,这 可 能 与 序 片段 过 短 和 缺乏 注释 信息 有 
关 ( 魏 利 斌 等 , 2012) 。 通 过 与 Nr 数据 库 进行 同 源 
序列 比 对 ,注释 到 理 豆 蚜 4. pisum 的 序列 最 多 ,这 是 
因为 更 豆 蚜 具有 丰富 的 基因 组 信息 (The 
International Aphid Genomics Consortium, 2010) Jf- H. 
两 种 生物 的 亲缘 关系 较 近 。C0 是 一 个 国际 标准 化 
的 基因 功能 分 类 体系 ,能 够 全 面 描述 生物 体 中 基因 
和 基因 产物 的 属性 ,从 宏观 上 认识 该 物种 的 基因 功 
能 分 布 特征 ,其 第 1 层级 的 描述 均 分 为 生物 过 程 、 细 
胞 组 分 及 具有 的 分 子 功 能 3 个 方面 ,而 第 2 层级 描 
述 在 不 同 物种 间 还 是 存在 一 定 差异 ,如 本 文中 将 序 
列 归 类 为 55 个 第 2 层级 的 描述 ,而 在 蔓 枝 带 蛙 虫 有 
47 个 第 2 层级 的 描述 ( 备 翔 等 , 2016) 。 在 第 3 层 
级 的 描述 中 ,扶桑 绵 粉 具 的 结合 活性 和 催化 活性 的 
GO 注释 较 多 ,这 与 大 垫 尖 友 蝗 Epacromius coerulipes 
( 金 永 玲 等 , 2015 ) FUE ER HI. Cylas formicarius ( Ma 






































et al., 2016) 的 研究 结果 较为 一 致 。 
昆虫 性 信息 素 的 前 体 主要 来 自 于 寄主 植物 或 者 
特殊 腺 体 中 的 类 脂 体 ( 闫 凤 鸣 , 2011 ) 。 本 文通 过 分 
析 GO 功能 注释 ,发 现 扶 桑 绵 粉 内 20 条 脂 类 代谢 途 
径 , 其 中 ,雌性 激素 代谢 过 程 、 雄 性 激素 代谢 过 程 和 
省 类 激素 代谢 过 程 都 注释 到 相同 的 18 条 序列 。 本 
研究 所 用 材料 是 雌 成 虫 ,这 些 序列 仅仅 参与 肉 性 激 
素 代谢 过 程 , 合 成 雌性 性 信息 素 吸 引 雄 虫 而 完成 两 
性 生殖 吗 ? 这 种 推断 与 在 扶桑 绵 粉 崔 广州 种 群 的 研 
究 中 普遍 认为 该 虫 仅 能 进行 两 性 生殖 ( 关 和 多 等 ， 
2011; 胡 俊 杰 , 2012) 一 致 。 有 文献 表明 脂肪 酰 还 
原 酶 (fatty-acyl reductase ) 和 酰基 辅酶 A 去 饱和 酶 
(acyl-CoA desaturase) 在 家 看 性 信息 素 合成 中 起 着 
重要 作用 (Moto et al., 2004; Ohnishi et al., 2006) 。 
TET SE UE P , Li SE (2016) 通过 转录 组 测序 发 现 
PsFar [和 PsFar V 的 片段 ,经 过 克隆 获得 了 PsFar I 
和 PsFar 工 的 全 长 序列 ,并 认为 这 两 个 基因 具有 解 
毒 抗 药 的 功能 ,但 并 未 描述 其 参与 性 信息 素 合 成 的 
功能 。 基 因 PsFar 工 与 本 文 从 性 信息 素 代 谢 筛 选 到 
的 序列 e18425_gl , c33194_gl 和 c26635_gl 具有 很 
高 的 一 致 性 ,发 所 该 基因 的 功能 对 于 阐明 扶桑 绵 粉 
盼 性 信息 素 的 代谢 途径 具有 一 定 的 意义 。 

转录 组 测序 产生 的 序列 所 包含 的 CDS 的 完整 
性 将 直接 影响 到 转录 组 的 分 析 和 使 用 。 本 研究 中 还 
尚未 涉及 利用 转录 起 始 位 点 (TIS) 和 位 点 转录 终止 
位 点 (TTC) 来 评估 转录 组 的 拼接 质量 ,这 也 是 今后 
对 扶桑 绵 粉 崔 转 录 组 进行 深入 分 析 的 工作 之 一 。 

转录 组 是 昆虫 功能 基因 研究 的 重要 手段 ,许多 
昆虫 生物 学 特性 解析 与 比较 都 可 以 从 转录 组 测序 并 
分 析 差 异 基 因 和 人 手 。 目 前 ,以 扶桑 绵 粉 具 转 录 组 测 





















































16 昆虫 学 报 Acta Entomologica Sinica 60 卷 








序 为 基础 进行 的 基因 功能 的 研究 已 经 有 少量 报道 ， 
如 利用 转录 组 测序 找到 1 781 个 SSR 位 点 ,为 481 
个 unigenes 成 功 设计 引物 ,证明 利 用 转录 组 数据 开 
发 SSR 标记 可 行 ( 罗 梅 等 , 2014) ; 从 转录 组 数据 中 
获得 12 条 化 学 感受 蛋白 基因 ,扶桑 绵 粉 内 化 学 感受 
蛋白 基因 与 其 他 昆虫 的 化 学 感受 蛋白 相似 性 都 较 高 
( 赵 洁 和 陆 永 路 , 2015 ) 。 本 研究 尚 存在 不 足 之 处 ， 
如 雄 虫 和 1 龄 车 忠 的 数量 未 能 达到 转录 组 测序 的 要 
求 而 没有 获得 该 虫 态 的 数据 ,不 能 进行 不 同性 别 和 
不 同 虫 态 的 转录 组 数据 的 差异 分 析 , 这 是 下 一 步 深 
人 研究 扶桑 绵 粉 内 要 进行 的 重要 步骤 。 但 此 次 转录 
组 测序 仍 建立 了 扶桑 绵 粉 盼 雌 成 虫 转录 组 数据 库 ， 
利用 功能 注释 与 分 类 发 现 了 性 信息 素 代谢 相关 的 序 
列 , 并 和 其 他 学 者 的 研究 成 果 具 有 高 度 一 致 性 。 本 
研究 将 为 扶桑 绵 粉 内 基 因 的 克隆 与 差异 表达 以 及 分 
子 标记 开发 提供 了 极 大 的 方便 ,为 半 翅 目 昆虫 的 分 
子 生物 学 研究 提供 了 丰富 的 数据 资源 。 
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